iT邦幫忙

2023 iThome 鐵人賽

DAY 16
0
AI & Data

利用 Databricks 學習 ML/LLM 開發系列 第 16

Day16 - Databricks Workflows 進階操作

  • 分享至 

  • xImage
  •  

Implement data processing and analysis workflows with Jobs

利用 Jobs 來建立資料處理與分析的工作流程,這也是資料工程的基礎但是非常有用的技能,來看看 Databricks 上面怎麼操作吧。

Transform, analyze, and visualize your data with a Databricks job

概念上來說,就是:

  1. 透過 Python script 呼叫 REST API 來取得資料
  2. 透過 Delta Live Tables 來處理資料 (ingest and transform),並將 transformed data 存到 Delta Lake
  3. 透過 Jobs integration with Databricks SQL 來分析 transformed data ,並且建立圖表來視覺化結果

Use dbt transformations in a job

dbt 算是目前主流的資料流工具之一,透過 Databricks Job 也可以整合 dbt core 來進行資料處理。相關文件

Use notebooks or Python code maintained in a central repository

相關的程式碼也可以透過版本控制系統來管理,例如 Git,這樣就可以透過 Databricks Job 來執行這些程式碼。相關文件

Orchestrate your jobs with Apache Airflow

Airflow 算是老牌的資料工程工具,透過 Databricks Job 也可以整合 Airflow 來進行資料處理。相關文件

Reference:


上一篇
Day15 - Databricks Workflows 操作
下一篇
Day17 - Databricks Repos
系列文
利用 Databricks 學習 ML/LLM 開發30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言